音乐界 Sora 上线！AI音乐的 GPT 时刻到来了吗？

Original 张成晨 APPSO 2024-04-18

Suno 爆火之后，又一个音乐界 ChatGPT 来了：Udio。它由前 Google DeepMind 工程师开发，被硅谷知名风投 a16z、Instagram 创始人看好。虽有爆款之相，但产品本身才能决定，Udio 可否在前辈的开荒后，再留下自己的痕迹。体验下来发现，Udio 的缺点和优点都很明显，和 Suno 各有所长。同时，目前所有的 AI 音乐都是初听还行，听多了便会出现耳朵和大脑不耐受的情况。🔗试用指路：https://www.udio.com/人声更清晰的赛博点唱机先看看 Udio 官方精挑细选的作品，直观感受好不好听。

乍一听，AI 擅长的音乐体裁挺多，很适合给团建和蹦迪热场，但留不下什么深刻印象。反而是网友们的自发创作更有意思。从目前的热门作品来看，相比 Suno，Udio 有两个特点：一是人声更加清晰，二是曲风的既视感更强，总感觉在哪里听过。以下这首把竞争对手 Suno 唱进词里的复古歌曲，女声比 Suno 更清晰，机器味也更少。百老汇音乐剧版沙丘则靠创意取胜，合唱团赞美由甜茶饰演的主角保罗，融合了青少年流行、音乐剧旋律以及摇滚元素。Udio 甚至还能模仿迪士尼歌舞片的风格，仿佛《美女与野兽》的贝儿、《阿拉丁》的茉莉公主、《冰雪奇缘》的艾莎在耳边歌唱。来源：X@cryptonymics‍Udio 自己也以人声为傲，表示 AI 会很多唱法，把高亢福音、沙哑蓝调、梦幻流行、丝滑说唱一网打尽。至于体裁和曲风方面，比较出乎意料的是，Udio 擅长古典，以下这首《C 大调快板合奏》和巴赫的勃兰登堡协奏曲非常相似。按照 Udio 的规定，它和 Suno 一样，不支持用某个艺术家的声音生成歌曲。不过，Udio 可以用艺术家的风格作为提示词，比如「贝多芬」。甚至有网友叫嚣，如今自己也能成为古典作曲家了。乡村音乐也是 Udio 的舒适区，《Highway Lasts》这首，有些泰勒·斯威夫特早期专辑的味道，甚至音色和唱腔也莫名形似。官方表示，Udio 擅长的流派和风格有很多，如电子舞曲、钢琴爵士、新灵魂乐、极端金属，也精通多种语言，支持生成日本流行乐、宝莱坞音乐、俄罗斯梦幻流行音乐。凡事不能光看说了的，也要挖掘被隐藏的。Udio 没有提及中文，可能是有意藏拙。果然，让 Udio 唱中文歌，有种霸王硬上弓的感觉，咬字不清晰又错误频出，发音有点像塑料粤语，不知道是不是拿港台歌训练的 AI，且素材不是很够。要不是我亲手输入了苏轼《定风波》的「竹杖芒鞋轻胜马......」，根本听不懂女声在唱什么。让 AI 自动生成中文歌词更是灾难，时不时夹杂英语，且没有什么韵味。Udio 生成的歌词.生成十几遍才有一首咬字基本清晰的中文歌曲之后，我也变得佛系了。难听，不想再听，呕哑嘲哳难为听，但好不好听已经没法苛求。勉强宽慰自己，唱得还挺响亮和精神。新手友好的开盲盒Udio目前发布的是免费测试版，注册账号之后，每个人每月最多可以生成 1200 首歌曲，按照理想情况，40 秒内就能生成一首。看着比 Suno 每天 50 个积分大气多了，然而官网挤爆了，服务器又不稳定，我的第一首歌三个多小时都没生成完毕，再登上去查看居然原地消失，只能重新输入提示词，之后的节奏倒是很快，基本在 2 分钟内就能生成。而且，Udio 创作的片段，默认为 30 多秒，相比 Suno 的 2 分钟，算是大打折扣。这些是基础设施和基本设定的问题，Udio 也有做得优秀的地方。和 Suno 类似，Udio 的创作界面非常直观，输入提示词，点击生成，等待 AI 创作完毕。也与 Suno 一样，Udio 通过 API 调用 ChatGPT 编写歌词。除了让 AI 自由发挥，Udio 也可以更加定制化，让你输入自己的歌词，添加具体的流派标签，选择生成纯音乐，或者包含歌词和人声的歌曲。同时 Udio 不闲着，起到一个助手的作用，不断地给你提建议，更加新手友好。一方面，Udio 提醒你怎么让歌词的效果更好，建议你加一些额外的标签，比如[Verse]（主歌）、[chorus]（副歌），让 AI 更好地理解歌曲的基本架构。这点其实也写在 Suno 的社区指南里，但初次尝试的新手不一定明白，Udio 把建议写在了输入框旁边，背后原因令人暖心。另一方面，按照你的提示词，Udio 会建议添加一些流派的标签，比如当我想要生成中国风的音乐，Udio 建议添加「traditional pop」。Udio 还有一个手动模式（manual mode），一般来说，Udio 会改写我们的提示词，提高生成的质量。但在这种模式下，Udio 不会做中间商，而是让你原汁原味地和模型交互，应该更适合那些本身就有音乐底子的创作人。生成之后，Udio 还支持再加工，让你扩展音轨的长度，添加[Intro]（前奏）、[Outro]（尾奏）等部分，让作品更加完整。这个细节 Udio 也比 Suno 做得细致，之前体验 Suno 时，我不知道可以在最前面写上[Intro]（前奏），导致生成的歌曲一开始就是人声，不太符合日常听歌的习惯。就算 Udio 的界面做得简单，但所谓「创作」的过程，还是个开盲盒的过程，并且出错概率体感比 Suno 要多，很容易让人垂头丧气。如果你对生成的效果不满意，不如玩玩 Udio 的随机提示词，比如「一首关于抢劫失败的合成流行音乐」「一首关于与时间赛跑的拉丁歌曲」「一首关于期待久别重逢的电子舞曲」。抱着降低期待的心理，我们就不必将 AI 当作精准的创作工具。如果我们在聚会、团建等场景需要歌曲调动一下氛围，那基本就够用了。这是普通音乐爱好者的赦免权，我们不必创作伟大的音乐，但可以多玩，看能不能生成自己喜欢的音乐。允许 AI「创作」新的音乐虽然 Udio 在 4 月 10 日才对外官宣，但这是一场事先张扬的发布，之前就有音乐泄露在 X，引起外界的关注和猜测。类比是人类的习惯。「音乐界 ChatGPT」的名号已经被 Suno 用了，因为 Udio 可以根据文本提示，快速生成包含人声的完整音轨，支持多种风格和流派，也领了一个互联网称号：「音乐界 Sora」。预热完了，Udio 终于露出庐山真面目，创始团队里有 4 位是 Google DeepMind 前员工。和 Suno 一样，Udio 也是希望音乐创作更大众化，同时服务于音乐家，让创作和分享音乐更简单，让想象力变现的门槛更低。文字、图片、音频、视频，现在的我们其实已经见过了 AI 的各种文本生成。在 Udio 团队看来，从文本生成一首完整的歌曲，最有魔法的感觉，是个「wow event」（哇哦时刻）。这是因为，音乐是我们更投入情感、也更愿意花时间消费的领域。Udio 的目标不仅是拥有一个创作音乐的工具，还要搭建一个围绕它的、所有人都能参与的社区。当工具可以让人更轻松地创作时，人们就会成为创造者和消费者的混合体。Suno 首页.跟随 Suno 的脚步，Udio 的页面也向音乐软件看齐了，有编辑精选、流行趋势、热门类别、热门曲目等栏目分类。Udio 首页.但从直观的听感来说，文生音乐的 AI 工具们都还不够好。它们无法让人忘记，这是机器制作的音乐，一旦听久了，必须停下来缓缓，要不然便是头昏脑胀。当然，初出茅庐的 Udio 还只是 v1 模型，Suno 也只是 v3 版本，进步的空间都很大。未来，Udio 的改进方向是，让 AI 更加可控，服务于音乐人，包括导入外部曲目、添加参考人声和更加精细的创作选项。体验 Suno 时，我们讨论过「创作的幻觉」，音乐被简化成了提示词的游戏，我们的主动权有限，也不能说自己「创作」了音乐。Udio 给人的感觉也是如此，我们以普通人的角度体验，乐趣只是暂时的，对音乐人的敬意反而更深。与此同时，AI 音乐生成工具可能陷入和绘画一样的版权争议，侵害音乐人的权益。就在最近，碧梨、水果姐等数百名音乐人联名呼吁，不要用 AI 取代人类艺术家。《滚石》杂志发现，Udio 可能生成和已故歌手汤姆·佩蒂很相似的音色。Udio 回应，他们内置了一个过滤器，避免生成的声音和真人音乐家相似，但不是百分百奏效。然而，他们没有正面回答，为什么会出现这样的情况，更没有说清楚，训练数据是什么，有没有拿受版权保护的音乐训练。回避了版权问题的 Udio，选择以另一个角度升华工具的意义：AI 的产出本身是「变革性的」。换句话说，模型正在从训练数据中创造出新的东西。Udio 解释，他们的目标不是复制披头士这样的伟大乐队，与其复制，不如直接听披头士。他们所做的，是让 AI 理解音乐的基础，然后创作新的音乐，既受到已有作品的启发，又完全新颖。言下之意，不原模原样地反刍，就是创新。更多的人参与创作，就是创新。某种程度上，ChatGPT 已经实现这一点了，它可以为作家、艺术家所用，也融入我们的工作流里。如果 AI 生成音乐的质量变得越来越好、并且越来越可控，它的「创新」能否被大多数人认同？这一切只能交给时间作答，到时候，AI 音乐的 GPT 时刻或许才真的到来。

继续滑动看下一个

APPSO

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地阅启新章｜Bloomberg Pursuits

音乐界 Sora 上线！AI音乐的 GPT 时刻到来了吗？

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地 阅启新章｜Bloomberg Pursuits

生成图片，分享到微信朋友圈

音乐界 Sora 上线！AI音乐的 GPT 时刻到来了吗？

您可能也对以下帖子感兴趣

行游天地阅启新章｜Bloomberg Pursuits